查看原文
其他

Points of View: Analysis of variance and blocking

NGSHotpot NGSHotpot机器深度学习生信 2022-06-07

Points of View: Analysis of variance and blocking

本文系NGSHotpot原创,欢迎分享,公众号转载须授权!

简介


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。

主要内容

        在上次的Points of Significance系列中,我们介绍了可以通过增加样本量或者设计配对实验来使得有差异的对照组与实验组有更低的p值,更大的统计效应。使用t检验来做的话,我们只能够比较两组数据是否有显著差异,但是如果有多组数据呢?这个时候用t检验虽然也可以通过两两比对看出两两之间的差异,使用方差分析是更好的选择,本文将介绍单因素方差分析。


单因素方差分析

        我们使用如下数据进行本文单因素方差分析的介绍。总共有3中不同的处理,每种处理中选出6个样本进行测量。方差分析的原假设是这几组不同的数据来自同一分布且有相同的均值,那么我们要检验的备择假设就是不同的处理间结果是否有显著差异。

        如上图a所示,A,B,C分别为3种处理的实验结果,方差分析的时候我们使用如下的方差分析表来检验各组间是否有显著差异。


        因素的自由度为因素水平的个数减1,误差的自由度为样本总数量减因素水平个数。SSB是指组内平方和,SSW为组间平方和,MSB为组内平方和与因素自由度的比值,MSW为组间平方和与误差自由度的比值。F值定义为MSB与MSW的比值,此时我们再看该F值在自由度为(因素自由度,误差自由度)的F分布中的p值。因素水平数量为r,每一个水平的数据为ni,具体计算如下:


        MSB与MSW的比值服从F分布,如上图b所示。显然如果组数和数量量确定,F分布就确定下来了,若是降低组内的方差MSW,我么可以增大MSB与MSW的比值,即F值,从而使得检验的p值更小,如上图c所示。当MSW=6时,F=1,p值为0.39,当MSW=1时,F=6,p值为0.01。

随机区组设计

        通过上面的分析我们可以知道,数据确定的时候,我们可以通过类似于t检验中降低方差的方式,来降低组内的方差MSW来使得检验得到更小的p值,增大统计检验的效应。通常情况下我们使用的随机设计其实就是独立样本的对比,例如把所有样本随机分为几组,接受处理,然后比较处理后的结果,随机区组设计其实就是配对设计,目的是最大程度消除个体差异引起的组内差别,比如:双胞胎接受不同治疗,或同一人接受A治疗,清洗期后再接受B治疗,对比疗效。


        如上图a所示,三个瓶子里面是处理的结果,左边的那三个圈是其他某个条件对处理结果的影响,我们可以看到,若是随机进行选择,三种不同的处理会有不同的结果,最终使得反应的值混合到一起。若是采用随机区间设计,如上图b所示,若控制掉刚才的那个条件,则能够使得该条件对实验结果的影响一致。这种设计类似于t检验中的配对设计。上图c展示了完全随机采样,会发现,不同的采样对于三种不同条件下的结果是完全随机的。而采用随机区间设计则不同的采样相当于是对实验进行重复。


单因素方差分析实例

        如下图a所示,为三组数据分布情况,下图b分别展示了SSB,SSW,MSB,MSW等的计算结果,在完全随机采用的情况下,得到下图c的比较结果。我们看到A组和C组之间有显著差异。


        但是当采用随机区间设计的方式来进行计算的时候,我们发现类似的结果,但是我们却可以得到更加显著的结果,A组和C组差异的p值为0.022,如不进行随机区间设计p值为0.07。


系列文章

1. Points of Significance: Importance of being uncertain

2.  Points of Significance: Error bars

3.  Points of Significance: Significance, P values and t-tests

4.  Points of Significance: Power and sample size

5.   Points of Significance: Visualizing samples with box plots

6.  Points of Significance: Comparing samples part I

7. Points of Significance: Comparing samples part II

8.  Points of Significance: Nonparametric tests

9.  Points of Significance: Designing comparative experiments

扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。


参考文献

1. Krzywinski M, Altman N. Points of significance: Analysis of variance and blocking. Nature methods. 2014;11(7):699-700.


 

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。

若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com

哈哈,经过这么久的努力,终于拿到微信的原创邀请啦!继续努力!

扫描或识别下方二维码关注NGSHotpot

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存